数据科学家:像数据科学家一样思考


数据思维的能力很重要
数据对于现代企业的重要性本文就不在赘述,无论是什么行业在当下互联网和移动互联网的赋能下,获取数据和信息变的比以往更加容易。如何让数据产生价值,如何减少信息不对称从而提高企业运营效率是每一家现代企业都应该关注和思考的。本文希望能够帮助企业中非数据分析专业的人士理解数据科学在商业中运用的逻辑,在不需要掌握高深的数学和统计学理论、复杂的编程工具和长年的数据工作经验,就可以像数据科学家一样思考和提问。
 
思维方式重要
每个现代社会的人从小到大在学校都在接受大量左脑训练,通过数学等学科训练我们的逻辑思维。上了大学、研究生甚至博士生之后我们所学的每一门专业课都在训练我们在某一个专业思维方式和思维体系。我们从外界获取信号,经过每一个人大脑中的思维框架,从而得出结论。所谓一千个人读莎士比亚会有一千个汉姆雷特,同样的信号经过不同大脑(思维框架)的处理便会得出不同的结论。(这里说的是大多数人在处理问题的流程,还有一种是通过直觉、冥想或者禅定来尽量让大脑停止思考来得到结论,这里就不去表述了)


 
突破自身思维惯性和框架,无论是学习数据思维也好还是其他另外一种非自身专业的学科都是非常有必要的。查理芒格在他的《穷查理宝典》中非常推崇多元思维方式的重要性,他说过于单一思维方式的人就像“在手里拿着铁锤的人看来,世界就像一颗钉子”。
就像任何一个跨学科学习一样,学习数据科学家的思维方式是最简单和最直接的方法。道和术要先掌握“道”,如果有时间可以再学习“术“。

数据科学家的思维方式
 
 问题是最重要的
 
对于一个数据科学家或者数据分析而言,什么是最重要的? 是数据吗?是建模方法吗?还是编程工具?都不是,数据科学家开始工作的起点是源自问题。
无论是数据、方法还是工具都是为问题服务的,汇总大量的数据和信息,使用适当的方法和工具来回答问题,而不是仅仅基于一个人或者一群的人的个人经验和所处位置来进行决策,避免屁股决定脑袋。
比如下面的问题:我们到底有多少(活跃)顾客?
这个问题看似很简单,但是蕴含了一个潜在的定义,就是对(活跃)顾客的定义。所以回答这个问题的前提是要对(活跃)顾客进行清晰的定义。
笔者曾经工作的一家银行每个部门对于其顾客的定义都不同,导致最后的报表非常混乱,其管理层无法清晰的了解企业顾客变化的情况,更加无法进行相应的顾客战略。这个问题是最后由一位既是数据专家也是业务专家项目经理解决的。
 
如何发现问题:报表
 
所以问题是数据的灵魂,如果没有准确定义的问题,那么数据科学家将无从下手。
发现问题的途径有很多,企业中问题的发现多数是来源于企业内部的报表,财务报表或者BI报表。比如基于财务包括可以看出,库存周转天数上升、EBITA下降,working capital 下降等等,然后通过财务分析可以找到这些指标下降的原因。
财务报表是从财务的角度来检测企业是否健康,BI报表是从运营的角度来进行检测。BI报表对比财务报表的优势是更加实时,可以做到隔周、隔天甚至更快的监控。BI报表对比财务报表的劣势就是不够标准化,而且也没有合规需求。
报表的设计所涉及的内容非常多,比如需要自上而下进行战略方向的设计、核心KPI的设计、辅助KPI的设计,关键名词定义等等,而且这还不包括落地实施部分。本文就不进行展开了。
 
如何回答问题:数据分析和挖掘
 
如何工具化的报表可以用来发现问题,那么回答这个的就得靠人工进行数据分析和挖掘。(至少目前是这样,以后可能被人工智能取代)
大数据近几年被炒的很火,但是数据也只是回答问题三要素之一(数据、方法和工具)。但是数据确实非常重要,因为工具和方法发展的速度远远慢于数据增加的速度。理论上,数据的体量和维度越多,那么回答问题也就越准确。所以,在工具和方法不变的前提下,数据量就成了那个最大变量。


 
数据获取
 
如果是甲方企业提出的问题多数情况下都可以利用内部数据来回答。如果乙方咨询公司,出具分析报告很多情况下就要通过外部数据了,可以通过问卷、购买或者爬取。然而数据的获取也不是随意的,而是基于问题本身。比如问题是:哪些顾客在接下来的三个月中会流失?
那么需要找到与顾客流失行为最相关的数据和变量,比如:流失前一个月的消费额、访问量、购买的商品等等。
 
分析方法
 
统计学的经典分析方法有上百年的历史了,无论是描述性统计还是预测性统计,贝叶斯统计还是经典统计,无监督学习或是有监督学习,以及最近发展非常火的基于神经网络的人工智能。这些不同的方法都可以在不同的场景中发挥作用,没有一种方法是可以解决所有问题的。分析方法没有对错之分但是有优劣之分,即便是同一种方法,不同的参数也会有不同的效果。基于场景选择最适合的分析方法是需要长时间学习和实践的。但是首先要对每种方法的理论有清楚的理解最后才能做到融会贯通。就像张三丰教张无忌学太极拳和太极剑一样,要先记住,再忘记,才能无招胜有招,切记生搬硬套。
 
分析工具
 
工欲善其事必先利其器,掌握适合的工具也是数据分析重要的一个要素。如果只是简单的描述性分析只需要SQL+Excel即可,如果需要进行建模、预测等则需要更加高级的工具比如SAS、R、Python等。本文不对各种工具进行详细对比,但是可以分享一下笔者对于统计工具的发展趋势是:开源化、云端化、整合化、去编程化。未来的统计工具会更加专业和易用。正所谓重剑无锋,大巧不工,归根打底工具还是为了回答问题而服务的,只要能够完成任务,什么工具并不重要。所以无须纠结到底是R好还是Python好。
数据分析的目的是用数据回答问题,基于问题的数据、基于场景的方法和基于个人的工具构成了回答问题的三要素。

 
如何解决问题:跨部门合作进行落地
 
数据科学家通过数据分析得出了问题的答案,并通过数据可视化等方式把其呈现给提问的人或者公司的管理层时,理论上数据科学家的任务就结束了。更进一步数据科学家可以基于问题的答案提出解决问题的建议,但是具体的落地执行就需要各个部门的配合了。
比如,数据科学家基于数据和预测模型发现一批顾客有很大概率在接下来的三个月流失,并且设计了挽回流失顾客的方案。但是方案只是停留在纸面上,还是需要运营部门和IT部门的同事来把方案落地。
方案的落地往往是一个项目中最困难的部分同时也决定了项目的成败。即使落地了,能否持续的使用下去又是一个问题。这其中最关键的原因就是人。人员的流动也往往导致项目无法持久。
如果能有一个第三方提供的产品,可以完成从发现问题到解决问题的闭环同相对减少人在其中的作用,那将对企业的帮助是巨大的。
 
哈步数据
我和我的同伴们正在致力于为零售领域开发一套完整的数据决策系统。系统的灵魂是以顾客为中心和以数据为驱动的思想体系。系统的目的是打通零售商、供应商和顾客彼此之间信息不对称的鸿沟,打造从问题发现到问题解决和落地的闭环。

作者飘哥系哈步数据首席数据科学家,曾在政府、银行、电信、互联网和咨询公司从事数据工作近10年。毕业于新西兰奥克兰大学,热爱R语言,并从事线下R语言教学课程。欢迎各个行业对数据感兴趣的朋友与我交流。Wechat:gylamb